Meta AI實驗室宣布將開源語言大模型OPT

來源：cnBeta | 2022-05-09 10:27:24 |

Facebook改名Meta后，“財務厄運”并未因此終止，但技術作風卻一如既往的大膽。雖然自2022年2月以來，公司股價已下跌30% ，市值損失超過2500億美元。但是，這并沒有影響開發者們的精神世界與工作動力。本周，來自Meta一小撮程序員的瘋狂舉動，在全球AI開發者群體中引發了巨大騷動——

Meta AI 實驗室高調宣布，將開放自己的語言大模型 OPT(Open Pretrained Transformer，預訓練變換模型)，毫無保留地貢獻出所有代碼。

不夸張地說，在人工智能圈，這算得上是一個里程碑事件。

這個被稱為OPT的大規模語言模型，自建立以來，各項參數與能力便精準對標OpenAI 的GPT3，甚至連缺點都是。后者在全球學術界建立的赫赫聲望和隨處可見的網絡小說續寫作品，想必已不必再過多贅述。

簡而言之，這是一種利用巨量網絡文本與書籍進行訓練，可以將單詞和短語串在一起組成精彩文本的深度學習算法模型。

它能生成復雜句子，有時候甚至讀起來與人類撰寫毫無無異(想粗淺了解GPT，可以看這篇《讓00后瘋狂的超級算法》)。某種程度上，它所具備的神奇人工文本模仿能力，被視為人類通往真正機器智能道路上的一個巨大突破口。

然而，“培育”大模型的代價，是昂貴的人力成本與成千上萬塊顯卡。因此，許多學者都認為，把這種大模型開放出來，幾乎不可能發生在“游走在壟斷邊緣”的大型科技公司身上。

譬如，OpenAI 的GPT3曾被專家粗略估算過，至少投入了1000萬美元。他們后來為了擺脫入不敷出的現狀，將GPT3作為一項付費服務來推廣——只提供API，但不會開放模型本身和底層代碼。

然而，Meta表示，會把不同參數規模的訓練模型以及“OPT如何建造和訓練”的詳細信息分發給研究人員。

其中，也包括一份超過100頁的算法訓練日志——實驗室記錄下的每一個錯誤與崩潰現象，訓練和添加數據的過程，以及有效與無效策略。

“考慮到計算成本，如果沒有大量資金，這些模型很難復制。對于少數通過api可調用的模型(這里暗指GPT3)，如果不能獲得完整的模型權重，就難以進行研究。”他們在OPT的論文摘要里鮮明表達了態度，

“因此，我們推出了OPT(這是一個只有解碼器的預訓練變換模型)，參數范圍從125M到175B，目標是全面且負責任地分享給感興趣的研究人員。”

“是真的開放。”

一位“正準備去看看他們實現情況”的中國開發者查閱了Meta AI網站后，告訴虎嗅，這的確是一個好消息。“從現有數據來看，整個訓練代碼都被貼出來了。Meta很了不起。”

擅用集體力量

這一次開源，毫無意外受到了學術界的高度認可，甚至有科學家稱其是一個偉大的舉動。

究其原因，一方面，一項強大技術，如何在一個封閉的企業精英團隊中誕生，一直是包括學界在內大眾好奇的焦點;

另一方面，“開源”的優勢在于利用集體力量來解決問題，因此長期被硅谷的有識之士所倡導——更多人參與進來，技術突破便來得越快，漏洞便填得越快。

盡管大部分人幾乎只記住了GPT3(因為它是迄今為止最好的“通才”)，實際上，除了Meta，Google、微軟都曾在2020年都推出過相似的大模型，但由于都是“關起家門”做私密研究，因此在“透明度”方面飽受詬病。

譬如，2021年的“Google人工智能倫理學科學家辭退事件”便引發了長達一年的“批判海嘯”，而這一切都是因一篇探討“語言大模型暗藏重大隱患”的論文而起。

沒錯，GPT3們不僅缺陷多多，而且非常致命。盡管多數責任應歸咎背后的人類文本。

創業公司 Latitude 曾在2019年推出過一款基于GPT3開發的半開放冒險游戲 AI Dungeon。但沒想到，隨著用戶增多，OpenAI監測到，有玩家竟然利用這項高階技術，自發生成兒童性愛場景。

雖然用戶利用GPT3生成的污言穢語也曾遭遇過廣泛抨擊，但這件事仍然讓大眾嘩然。這也是外界第一次意識到，GPT3這類大模型更為深刻的陰暗面。因此，Latitude增加了審核系統，但卻引發了與用戶體驗相關的一系列麻煩。

然而，“越是危險，越不能回避危險”。這也是Facebook自稱選擇開放的關鍵原因之一。

Meta AI 負責人Joelle Pineau承認，團隊解決不了所有問題，包括文本生成過程中的倫理偏見和惡毒詞句。因此，他們誠邀天下豪杰，共同學習;而實際上，這也是一種彼此監督。

“我認為，建立信任的唯一途徑是極端透明。”

我們查看了Meta提供的下載通道，發現實驗室根據每個模型的參數規模設立了不同的下載條件：300億參數以下可隨意;而1750億參數值模型，也就是與GPT3大小相同的OPT，則需要填寫申請表證明用于非商業用途，獲得批準后方可下載。

翻過大山，仍然是山

當然，理論上這個做法是可圈可點的，但一個更大的問題出現了：如果你要使用這個1750億參數值的大模型，就意味著你的計算機要帶得動它。

換句話說，你需要擁有足夠的算力，這里可以直接換算成“財力”。

“一個參數如果是FP32，也就是4個字節大小。而1750億參數值則相當于7000億字節，大約700G顯存空間。而現在一張普通顯卡是20GB。” 一個開發者向虎嗅稱贊了Meta的做法，但他認為，對于普通開發者群體，該模型仍然是不可承受之重。

“雖然可以把不同參數放在不同顯卡里的框架里，但據個人體驗，目前仍然欠缺開源成熟的框架。”

因此，截至目前，這個開源大模型，仍然是屬于大型科技公司、擁有充足資金的大型實驗室與學術機構的“內部游戲”。

曾有家嘗試做中國版GPT3的創業公司嘆息說，他們也在想方設法實現GPT3可以實現的文字能力，但的確掣肘于有限算力。

事實上，除了巨頭，GPT3一直難以解決的商業化難題，是讓絕大部分企業呈觀望之勢的根本原因。盡管大型語言模型已成為過去幾年來人工智能領域最熱門的趨勢之一。但至少目前來看，除了品牌營銷優勢，OpenAI 的投入產出比，很不盡如人意。

此外，在西方社會普遍認知中，比起技術突破，它們帶來的巨量能源消耗更是一種原罪。

科學家Emma Strubell與合作者在2019年發表的論文，就揭露了大型語言模型在碳排放上超乎想象的環境破壞力(上圖)。

他們發現，用一種神經結構搜索方法(NAS)訓練出的特定語言模型，可產生284噸(626155磅)，上圖)二氧化碳，這大約是5輛小轎車長達5年的排放總量;

而Google搜索引擎的基礎——BERT語言模型訓練，則產生了0.65噸二氧化碳，Strubell提醒，這相當于一個乘客從紐約到舊金山往返航班的碳排放量。

更需要注意的是，這些數字都應被視為“最保守數值”：只是在一次性訓練中的模型成本。

因此，考慮到能源效率與環境成本，西方不少科學家與開發者認為，某種程度上，大模型的訓練開發也是在允許大型企業掠奪著環境資源，而這些成本，將會平攤在所有人身上。因此，他們并不希望企業加入到大模型隊列中。

“盡管是無意識的，但這只會加大對邊緣人群的打擊。”

開源商業回報，巨大且無形

很多時候，人們會對開源模式發出這樣的質疑：

有什么能比“兩個來自競爭對手公司的員工，可以為同一個目標協作，還免費送出自己成果”更不可思議的事情?

譬如，可能連小學生都清楚的Android系統，就是基于開源的Linux操作系統。這意味著，任何人都可以查看絕大多數Android手機的核心代碼，修改并分享它。

事實上，“開源”正是為不同利益群體，提供一種“利遠大于弊”的長期技術合作方式——你增加的獨特元素我能使用，那么我迭代的版本你也不會錯過。

這種“互利”態度，讓看似不可思議的“協作”成為可能，經過100多年來的反復修正，早已成為一種常態。如今，Linux 就是由全世界超過15000名程序員共同開發和維護。

而在人工智能領域內，最有名的案例則是Google的深度學習開源框架Tensorflow。它已是開發人工智能應用程序的標準框架之一。非常有趣，當Tensorflow在2015年開源時，外界也是發出了跟這次Meta開源大模型同樣的疑問：

作為開放者，Google為什么要放棄對自己搜索業務如此重要的東西?

一部分原因上面講過——外部開發人員把軟件做的更好，該軟件就能適應Google未來商業化的很多需要。就像當下，大模型商業化還尚不明朗，那么前期工作的開放性與主導性，就變得至關重要。

根據Google自己公布的數據，已有超過1300名外部人員在TensorFlow上幫助升級迭代。而完善后的Tensorflow，則為Google云上的相關付費服務輸送了強力支持。

另外，我們永遠不要小看開源軟件為企業帶來的巨大營銷價值。

它最一流的“帶貨效果”，便是吸引和留住一眾頂尖人才，不知道為大廠省下多少高昂的人力資本。這也與當下Meta開始收縮招聘規模的現狀，做了完美呼應。

當然，優秀開源軟件打的時間差和聚攏效應，將會使后來者很難在短時間內形成氣候，Tensorflow與一眾國產深度學習開源框架的往事就是最好的例子。

因此，Meta這一決定，將會讓OpenAI陷入一個尷尬的境地——雖然名聲很大，但它畢竟是一家創業公司。從另一個角度看，在尋找商業落地的過程中，大廠通過開放、免費等手段遏制對手，取得勝利，這種事情似乎永遠都在發生。

但好處在于，這會讓一家公司意識到，在商業世界，沒有一分鐘時間可用來頓足，絕不能停下創新的狂奔步伐——近期他們發布的達利系統第二代，也許是以GPT3為跳板，向文字與視覺融合方向躍升的最好標志。

關鍵詞：人工智能開發者工具開源語言大模型深度學習算法

Meta AI實驗室宣布將開源語言大模型OPT

本周資訊推薦

2020上半年全球企業區塊鏈發明專利排行榜：阿里巴巴以1457件位列第一

數據：區塊鏈相關企業目前共有4.56萬家在業存續的超過4萬家

2020年區塊鏈領域全球授權專利報告：支付寶以212件專利數位列全球第一

米粉節神秘大獎：小米3萬元全屋智能產品僅需1元

考拉海購宣布升級商品全鏈路溯源系統引入區塊鏈溯源技術

熱點資訊

筆記本攝像頭反了怎么調過來筆記本攝像頭反了怎么辦-世界快資訊

ipad tv電視棒使用方法 ipad tv電視棒怎么用方法很簡單-全球觀察

IE無響應怎么辦 IE無響應原因和解決方法 IE無響應原因分析-當前通訊

ibooks支持什么格式-詳細介紹如下

tmp怎么打開 tmp文件打開方法介紹-環球播報

Meta AI實驗室宣布將開源語言大模型OPT

圖片推薦

要聞

本周資訊推薦

熱點資訊